Hadoop子项目介绍_Hadoop

Hadoop是Apache的一个开源分布式文件系统项目(http://hadoop.apache.org/),它是一个实现了MapReduce计算模型的可以运用于大型集群并行计算的分布式并行计算编程框架。

目前，整个Hadoop家族由以下几个子项目组成：

Hadoop Common

Hadoop体系最底层的一个模块，为Hadoop各子项目提供各种工具，如：配置文件和日志操作等。

Avro

Avro是doug cutting主持的RPC项目，有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC，使hadoop的RPC模块通信速度更快、数据结构更紧凑。

Chukwa

Chukwa是基于Hadoop的大集群监控系统，由yahoo贡献。

HBase

基于Hadoop Distributed File System，是一个开源的，基于列存储模型的分布式数据库。

HDFS

分布式文件系统

Hive

hive类似CloudBase，也是基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据的汇总，即席查询简单化。hive提供了一套QL的查询语言，以sql为基础，使用起来很方便。

MapReduce

实现了MapReduce编程框架

Pig

Pig是SQL-like语言，是在MapReduce上构建的一种高级查询语言，把一些运算编译进MapReduce模型的Map和Reduce中，并且用户可以定义自己的功能。Yahoo网格运算部门开发的又一个克隆Google的项目Sawzall。

ZooKeeper

Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。

Hadoop子项目介绍